Übersicht
Bei der Beurteilung von Forschungsergebnissen stellt sich die Frage, ob eine Stichprobe repräsentativ für die Grundgesamtheit ist. Im Workshop werden wir gemeinsam erarbeiten, inwiefern eine Abweichung der Stichprobe von der Grundgesamtheit zu einer Verzerrung von Forschungsergebnissen führen kann und wie in einem solchen Falle bei der Berichterstattung der Ergebnisse vorgegangen werden kann. Im analytischen Teil des Workshops wird die eigene Lehrer:innen- bzw. Schüler:innen-Stichprobe mit Daten der amtlichen Schulstatistik (Grundgesamtheit) abgeglichen, um somit Aspekte der Repräsentativität der eigenen Stichprobe einzuschätzen. Datenbeispiele werden zur Verfügung gestellt. Die analytische Arbeit erfolgt mit Excel, R und RStudio.
Bitte R und RStudio installieren (Step 1 & Step 2): https://posit.co/download/rstudio-desktop/
Pawel R. Kulawiak
kulawiak@uni-potsdam.de
Bei einer repräsentativen Online-Umfrage (Zufallsstichprobe) wurde der Link zur Befragung an 1000 Lehrkräfte verschickt (fiktives Beispiel)
746 Lehrkräfte haben an der Umfrage teilgenommen und folgende Frage beantwortet:
Benutzen Sie KI-Tools für die Unterrichtsvorbereitung?
Es besteht eine negative Korrelation (r = -0.34) zwischen „Alter“ und „Nutzung der KI-Tools“: Je älter die Lehrpersonen sind, desto seltener werden KI-Tools genutzt.
Altersverteilung der Lehrpersonen (in Jahren)
60 bis 64 🔳 2 %
55 bis 59 🔳🔳 4 %
50 bis 54 🔳🔳🔳 6 %
45 bis 49 🔳🔳🔳 6 %
40 bis 44 🔳🔳🔳🔳🔳🔳 12 %
35 bis 39 🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳 20 %
30 bis 34 🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳 28 %
25 bis 29 🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳 22 %
In einem Beitrag in einer Tageszeitung wird anhand der Umfrageergebnisse folgendes geschlussfolgert:
“Die allermeisten Lehrkräfte in Deutschland benutzen KI-Tools für die Unterrichtsvorbereitung.”
Empfinden Sie diese Schlussfolgerung als gerechtfertigt? Ist eine Verzerrung der Umfrageergebnisse möglich/plausibel? Begründen Sie Ihre Argumentation.
Grundgesamtheit, Stichprobe und Zufallsstichprobe
“Our goal in sampling is not to obtain a random sample per se, but to obtain a sample representative of the parent population, which will allow us to infer from the characteristics of the sample to the characteristics of the population, based on the argument that the sample is “similar” to the rest of the population.” (Teng, 2011)
“A random sample is often used as a stand in for a representative sample. Random sampling however is neither necessary nor sufficient to ensure a representative sample. A random sample might still be skewed, as it must happen every now and then as a mathematical fact, and a non-random sample might have the appropriate proportion of elements, either by careful crafting of the sample or just by chance.” (Teng, 2011)
Kann eine nicht repräsentative Stichprobe das Studienergebnis verzerren?
“However, even if we adhere to all good sampling practice, if there are reasons to cast doubt on a sample’s representativeness, the statistical inference from the sample to the population should justifiably be undermined.” (Teng, 2011)
Beispiel:“For example, to determine the average IQ of people, if it comes to our attention that all the members of the sample, drawn carefully following good sampling practice, happen to be members of mensa [high-IQ society], we should not proceed with the inference. The inference would be blocked as the default justification that the sample be representative becomes suspect.” (Teng, 2011)
Bei einer repräsentativen Online-Umfrage (Zufallsstichprobe) wurde der Link zur Befragung an 1000 Lehrkräfte verschickt (fiktives Beispiel)
746 Lehrkräfte haben an der Umfrage teilgenommen und folgende Frage beantwortet:
Benutzen Sie KI-Tools für die Unterrichtsvorbereitung?
Es besteht eine negative Korrelation (r = -0.34) zwischen „Alter“ und „Nutzung der KI-Tools“: Je älter die Lehrpersonen sind, desto seltener werden KI-Tools genutzt.
Altersverteilung der Lehrpersonen (in Jahren)
60 bis 64 🔳 2 %
55 bis 59 🔳🔳 4 %
50 bis 54 🔳🔳🔳 6 %
45 bis 49 🔳🔳🔳 6 %
40 bis 44 🔳🔳🔳🔳🔳🔳 12 %
35 bis 39 🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳 20 %
30 bis 34 🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳 28 %
25 bis 29 🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳🔳 22 %
Die Altersverteilung der befragten Lehrkräfte entspricht augenscheinlich nicht der Altersverteilung der Lehrkräfte in Deutschland (siehe hier). In Deutschland gibt es deutlich mehr ältere Lehrkräfte (z.B. über 60) sowie deutlich weniger jüngere Lehrkräfte (z.B. unter 30).
Würde die Stichprobe der Grundgesamtheit entsprechen, also mehr ältere Lehrkräfte beinhalten, dann würden diese älteren Lehrkräfte wahrscheinlich häufiger angeben, dass sie keine KI-Tools nutzen (je älter die Lehrpersonen, desto seltener werden KI-Tools genutzt).
Es gibt empirische Hinweise darauf, dass ältere Lehrkräfte digitale Medien seltener nutzen (Mauß, XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX2020). https://www.gew.de/fileadmin/media/publikationen/hv/Bildung-digital/202004-Mitgliederbefr-Digitalisierung.pdf
Dementsprechend erscheint die Annahme plausibel, dass die KI-Nutzung (89 %) überschätzt wird, da ältere Lehrpersonen, welche KI seltener nutzen, in der Stichprobe unterrepräsentiert sind.
Eine repräsentative Stichprobe (repräsentativ im Hinblick auf das Alter) würde wahrscheinlich zu einer kleineren Einschätzung der KI-Nutzung führen, also eine geringere Prozentzahl von Ja-Antworten auf die Frage “Benutzen Sie KI-Tools für die Unterrichtsvorbereitung?”.
Die Altersabweichung der Stichprobe von der Grundgesamtheit kann einerseits als Stichprobenfehler (sampling error) umschrieben werden: “A random sample might still be skewed, as it must happen every now and then as a mathematical fact […]” (Teng, 2011)
Andererseits können mit dem Konzept der Verzerrung (z.B. participation bias) plausible Argumente für die Erklärung der Abweichung einer Stichprobe von der Grundgesamtheit herangezogen werden:
„Teilnahmeverhalten (Nonresponse) und Stichprobenverzerrungen (Bias) zählen vermutlich zu den beiden wichtigsten Forschungsgebieten der Surveymethodologie. Beide Bereiche hängen eng zusammen: Die systematische, nicht zufällige Verweigerung oder Nichtteilnahme an einer Studie führen zu Ergebnissen, die bei Verallgemeinerungen auf die Grundgesamtheit diese nur verzerrt wiedergeben (Groves und Peytcheva 2008).“ (Weinhardt & Liebig, 2015)
Teng, C. M. (2011). Data, Data, Everywhere: Statistical Issues in Data Mining. In Philosophy of Statistics: Volume 7 in Handbook of the Philosophy of Science (Vol. 7, pp. 1099–1117). Elsevier. https://doi.org/10.1016/B978-0-444-51862-0.50034-4
Stichprobenfehler im Dorsch Lexikon der Psychologie. (2016). https://dorsch.hogrefe.com/stichwort/stichprobenfehler
Weinhardt, M., & Liebig, S. (2015). Teilnahmeverhalten und Stichprobenverzerrung in der deutschen Stichprobe des European Social Survey. In J. Schupp & C. Wolf (Hrsg.), Nonresponse Bias (S. 47–83). Springer Fachmedien Wiesbaden. https://doi.org/10.1007/978-3-658-10459-7_2
“Die Nutzung amtlicher Daten ist dabei an vielen Stellen unverzichtbar, da nur durch sie die Grundgesamtheit (z. B. Bildungsinstitutionen und darin genestet Lernende) bestimmt und als Referenz für die Stichprobenziehung […] verwendet werden kann. […] Dies kann für den Bereich Schule an vielen Stellen in optimaler Weise durch die Nutzung von Daten aus der amtlichen Schulstatistik geschehen.” (Artelt et al., 2019)
GENESIS-Online: Datenbank des Statistischen Bundesamtes (inkl. amtliche Schulstatistik)
"In GENESIS-Online, der Datenbank des Statistischen Bundesamtes, finden Sie eine Vielzahl von Tabellen [inkl. amtliche Schulstatistik], die Sie nach Ihren jeweiligen Anforderungen konfigurieren können. Neben der Ansicht auf der Weboberfläche besteht die Möglichkeit, die Ergebnistabellen herunterzuladen. Neben den layoutorientierten Formaten XML und XLSX können Sie die Tabellen auch in einem für die Weiterverarbeitung besonders gut geeigneten CSV-Format abspeichern, dem “Flat File CSV-Format”. Hier sind die Daten und Metadaten strukturiert und gleichförmig als “tidy data” zusammengestellt."
Sie haben im Schuljahr 2022/23 eine Befragung von Schüler:innen mit sonderpädagogischen Förderbedarf durchgeführt. Die Befragung fand in Nordrhein-Westfalen (NRW) statt. Sie möchten nun überprüfen, inwiefern die Zusammensetzung der Stichprobe der Grundgesamtheit entspricht. Die Stichprobenbeschreibung zeigt folgendes Bild (siehe Stichprobenbeschreibung der Schüler:innen).
Erkunden Sie die Datenbank: Welche Optionen und Darstellungsmöglichkeiten bietet die Datenbank?
Welche weiteren analytischen Schritte sind notwendig, um die Zusammensetzung der Stichprobe mit der Grundgesamtheit zu vergleichen? Tätigen Sie diese analytischen Schritte (inkl. Visualisierung) und arbeiten Sie dabei mit der CSV-Datei (Flat) in Excel, SPSS, R oder mit einem anderen Analysetool Ihrer Wahl.
In der GENESIS-Datenbank werden lediglich die absoluten Häufigkeiten ausgegeben. Für den Vergleich der Stichprobe mit der Grundgesamtheit ist die Umrechnung der absoluten Häufigkeiten in relative Häufigkeiten (%) notwendig.
Artelt, C., Bug, M., Kleinert, C., Maaz, K., & Runge, T. (2019). Nutzungspotenziale amtlicher Statistik in der Bildungsforschung. Waxmann. https://doi.org/10.25656/01:17787
Defining representativeness of study samples in medical and population health research: https://doi.org/10.1136/bmjmed-2022-000399
Erste Seite “Willkommen” ergänzen: 20 Yaers of representativity
Übung: “Non Responder” hinzufügen
“Generalisability in estimate can be achieved if the distributions of key covariates are the same as in the target population, as would occur in expectation with random sampling. Thus, generalising the estimate aligns closely with the definition of representativeness based on representative sampling. These key covariates are those that affect the variable under study […] and thus are potential effect measure modifiers of the effect […]”Education: https://doi.org/10.1080/13803611.2019.1617989
Representativeness is not helpful in studying heterogeneity of effects across subgroups: https://doi.org/10.1093/ije/dyt265
Why representativeness should be avoided: https://doi.org/10.1093/ije/dys223
Zinn und Steinhauer (2017) zeigten am Beispiel der INSIDE-Studie zur Inklusion, dass durch eine Verknüpfung von amtlichen Daten zur Schule (Größe) und zur Zusammensetzung der Schülerschaft (u. a. Verkehrssprache in der Familie, Art des Schulbesuchs im Vorjahr) Verzerrungen der erhobenen Daten, die aus überzufälligen Absagen der Untersuchungsteilnahme von Schulen mit bestimmten Merkmalen entstehen, aufgedeckt werden können. Über Verfahren der Gewichtung und Imputation, die diese Informationen nutzen, kann ein verzerrtes (im Fall der INSIDE-Studie zu positives) Bild der mittleren Leistungen der Schulen korrigiert werden (vgl. ebd.).
Epilepsie-Beispiel